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В статье описан метод автоматического определения семантических отношений между концептами- 
узлами сети онтологической базы знаний на основе анализа матриц семантико-синтаксических валентностей 
слов. Данные матрицы получены при помощи неотрицательной факторизации тензоров синтаксической 
сочетаемости слов. Тензоры были сгенерированы в процессе частотного анализа синтаксических структур 
предложений текстов статей Еп? Изв \/юре@ а. 
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Вступ 


Неотрицательная тензорная факторизация в последнее время широко востребо- 
вана в таких областях, как информационный поиск, обработка изображений, обработка 
естественного языка, машинное обучение и в других смежных направлениях. Данный 
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подход является одним из наиболее перспективных для выявления и анализа взаимо- 
связей, и отношений в данных, где сочетаются объекты М разных типов и классов. 
№ -мерный тензор, который в информатике трактуется как многомерный массив данных, 
является удобной структурой для представления данных высших порядков. Факто- 
ризация М-мерного тензора генерирует М матриц, состоящих из К векторов, которые 
представляют отображение каждого измерения тензора на К факторизованных изме- 
рений скрытого семантического пространства, что служит уникальным средством 
для моделирования и выявления взаимосвязей и совместного поведения М переменных 
в массиве М-мерных данных. Факторизация тензора является мультилинейным ана- 
логом сингулярного разложения матриц, используемого в латентном семантическом 
анализе для обработки двумерных массивов данных. В некотором смысле метод нео- 
трицательной тензорной факторизации тензоров можно назвать п-мерным обобщением 
латентного семантического анализа. 

В настоящее время неотрицательная тензорная факторизация является перспек- 
тивным методом в решении задач компьютерной лингвистики, о чем свидетельствуют 
многочисленные работы в этом направлении [1-4]. 

Данная робота описывает модель многомерного представления семантико- 
синтаксических отношений между словами в предложениях естественного языка. 
Частотный анализ структур предложений большого текстового корпуса дает описание 
естественного языка в виде многомерного массива возможных сочетаний слов в опре- 
деленных синтаксических позициях, которые и задают данный язык. Многомерный 
разряженный тензор раскладывается с помощью метода неотрицательной факторизации, 
который, помимо компактной и удобной структуры представления данных о сочета- 
емости последовательностей лексем в некоторых синтаксических позициях предло- 
жений естественного языка, дает эффективный метод вычисления оценки вероятности 
существования семантико-синтаксических связей между словами разных граммати- 
ческих категорий. Каждому слову в разложенных матрицах тензора соответствуют 
вектора уменьшенной размерности К (где К — размерность латентного семантического 
пространства разложенного многомерного лингвистического тензора), и эти вектора 
описывают семантико-синтаксическое поведение данного слова: в какого типа связи 
и с какими словами оно вступает. По аналогии с химией можно рассматривать К-мерные 
вектора слов из матриц разложенного тензора как векторы семантико-синтаксических 
валентностей — (зетапйс уаепсе уесюг — ЗУУ) слов. Слова по своей природе являются 
неоднозначными, и одному слову, как правило, соответствует несколько значений. 
В работе предложено рассматривать К-мерные ЗУУз слов как суммы составных сла- 
гаемых ЗУУ$ разных значений этих слов. В статье представлен разработанный метод 
расщепления ЗУУ$ слов на составные слагаемые ЗУУ$ их разных значений и способ 
привязки этих расщепленных составных слагаемых ЗУУ$ к синсетам \огаМее [5] в 
качестве их собственных значений ЗУУ$, неявно описывающих их семантические 
отношения с другими синсетами \МогаМее. 


Модель №-мерного пространства представления 
семантико-синтаксических отношений слов 
в предложениях ЕЯ — текстов 

Рассмотрим пример некоторого текстового корпуса «Футболист забил гол. Девочка 


ела мороженое. Футболист забил гол.», состоящего из трех предложений. Первое и 
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третье предложение совпадают. В трехмерный массив записываются частотные оценки 
сочетаний слов в позициях подлежащее, сказуемое и дополнение. 


У(Футболист, забил, гол) =2 

\У(Девочка, ела, мороженное) =1 

Представим трехмерный массив в виде трехмерного пространства, где оси ОХ, ОУ и ОХ 
соответствуют синтаксическим позициям слов — подлежащему, сказуемому и д0- 
полнению: 

Ось ОХ(подлежащее) (Футболист, Девочка) (х1, х2) 

Ось ОУ(сказуемое) (забил, ела) (у1,у2) 

Ось О/(дополнение) (гол, мороженное) (71,72) 


г и 

ж | 7 | 

й | но . 

07 р. 

: | и | 

шв * РМ р 

Ра || . | 

мороженное #.—.—.—. бес © 

: 2 ‹ к 
и я | 


футболист девочка ох 


Рисунок 1- Графическое представление трехмерного семантико-синтаксического 
пространства слов, моделируемого трехмерным тензором 
Данный набор предложений можно попытаться промоделировать системой уравнений: 


а = 

. Х2+у2+72=1 

; 171 72=0 

Ру 720 

. х1*у2*71=0 

. х2%у1*71=0 

ТУ 

. х2*%у2*71=0 

Очевидно, что система решения не имеет. 

Поэтому х1, У1, 71, х2, у2, 72 целесообразно представить в виде сумм К переменных: 


© чмлмиьшь- 


К 
2 - у, *2, = 2, если 2-Е; 
1=1 

К 

а *у,*2, =1, если 7-2; 


1=1 


К 
9 - чу, *2, =0, если не 7=/=1 
= 
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Одно из возможных решений системы уравнений, где К=2, 
описано в виде матриц Х, У ий: 


Хх 

ме 
1еуё 1 2 0 
1еуеё!_2 0 1 

№ 

ОЕ >39 
1еуё 1 1 0 
1еуе! _2 0 

7 

2. 25 
1еуеё Г 1 1 0 
1еуеё! _2 0 1 


В матрицах Х, У и 1 уровни, соответствующие рядкам, можно представить 
семантико-тематическими подпространствами: первый уровень соответствует фут- 
больной тематике, второй — теме «питание, продукты питания». 

При обработке крупных текстовых корпусов большого объема мы получим модель 
представления правильных 3-словных предложений естественного языка. При этом 
количество строк матриц будет значительно меньше, чем количество разных сочетаний 
слов (в приведенном выше примере 2 разных сочетания — 2 строки). При построении 
данной модели используется принцип, аналогичный сингулярному разложению матриц 
в латентном семантическом анализе [6]. 

В ЛСА разряженная матрица О большой размерности №МхМ, хранящая оценки 
частоты использования слов-терминов в разных текстах корпуса (№ — количество 
слов терминов, а М — количество текстов) раскладывается на две матрицы А (№МхА) и 
В (КХМ,, где К намного меньше Ми М. Матрица А представляет собой отображение 
множества терминов-слов в А-мерное пространство латентных фактор-признаков, а 
матрица В — отображение множества текстов в это пространство. Можно представить 
себе каждое измерение этого пространства в виде некоторой тематики, по которой 
коммутируются группы ее слов-терминов и тексты данной направленности. Схема- 
тически понятийную интерпретацию результатов работы метода можно представить, 
как показано на рис. 2. 

Структуру, полученную в результате работы алгоритма латентного семантиче- 
ского анализа, можно сравнить с трехслойной нейронной сетью. Данная сеть состоит 
из двух слоев, которые представляют множества объектов двух типов, а также из 
скрытого коммутационного слоя, состоящего из множества узлов с различными весо- 
выми коэффициентами. Этот слой моделирует взаимосвязи между этими объектами 
двух типов и связывает данные двух слоев в единую нейронную сеть. 

Отдельного рассмотрения заслуживает проблема выбора К при разложении раз- 
ряженной матрицы большой размерности О. Самым идеальным является случай, 
когда размерность модели латентного семантического пространства А (в нашем случае — 
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количество тематик) известно заранее. Иначе приходится определять это число авто- 
матически при помощи специальных алгоритмов. При этом если происходит ошибка 
в сторону уменьшения числа К — некоторые разные тематические измерения латентного 
семантического пространства сольются в одно измерение. Если же число К будет 
больше реального количества тематик в текстах корпуса, то некоторые тематические 
измерения пространства будут искусственным образом разделены на несколько изме- 
рений. И в первом, и во втором случае качество модели будет падать тем больше, 
чем больше расчетное А будет отличаться от реальной тематической размерности 
текстового корпуса. 

Помимо экономного представления разряженной матрицы 0), получаем удобный 
инструмент для измерения семантической близости между словами-терминами, между 
текстами и также между словами и текстами. Для того чтобы определить значение 
меры близости между двумя словами, нужно вычислить скалярное произведение 
соответствующих им векторов строк матрицы А. Для того чтобы определить значение 
меры близости между двумя текстами, нужно вычислить скалярное произведение 
соответствующих этим текстам векторов столбцов матрицы В. Чтобы определить 
значение меры близости между словом и текстом, нужно вычислить скалярное про- 
изведение вектора строки этого слова из матрицы А и транспонированного вектора 
столбика этого текста из матрицы В. 

Данный подход применен в представлении модели сочетаемости слов в пред- 
ложениях естественного языка, описанной в начале работы. Для разложения трех- 
мерного массива сочетаемости слов в предложениях структуры «подлежащее-сказуемое — 
дополнение» используется метод неотрицательной факторизации тензоров МТЕ [1]. 


Результат разложения разряженной матрицы О 
(терминыхтексты) в виде произведения двух матриц 
АСМХК) и В(КХМ) с уменьшенным К, выполненного 
методом латентного семантического анализа 


Таблица 1 
Программа 
Искусство В 
Собака Пляшущие | Властелин Алгоритм 
Матрица Баскервилей | человечки Колец Хоббит ВОтрМЕ че 
мирования С 
труктура 
данных 
Расследование Хх Хх 0 0 0 0 
Убийство Хх Хх 0 0 0 0 
Похищение Хх Хх 0 0 0 0 
Маг 0 0 Хх Хх 0 0 
Эльф 0 0 х х 0 0 
Гном 0 0 С Хх 0 0 
Орки 0 0 Хх Хх 0 0 
Оператор 0 0 0 0 Хх Хх 
Цикл 0 0 0 0 Хх Хх 
Процедура 0 0 0 0 х х 
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Раскладывается в произведение матриц А и В (Х- некоторые значения, отличные 


от нуля). 


Таблица 2 


Матрица А 


011 


02 


Оит3 


Расследование 


Убийство 


Похищение 


Маг 


Эльф 


Гном 


Орки 


Оператор 


Цикл 


Процедура 


о <<< =еммх 


о юм мжмоее 


о о о о о а а К К) 


Таблица 3 


Матрица В 


Собака 
Баскервилей 


Пляшущие 
человечки 


Властелин 
Колец 


Хоббит 


Искусство 
Програм- 
мирования 


Программа = 
Алгоритм + 


Структура 
данных 


01 


х 


х 


0 


0 


Оип2 


0 


0 


0 


0 


Оип3 


0 


0 


0 
х 
0 


0 
Хх 
0 


х 


х 


Если усовершенствовать синтаксическую модель предложения с учетом других 
возможных синтаксических позиций слов, то размерность модели увеличится. Скажем, 
структура «подлежащее — сказуемое — дополнение — определение — обстоятельство» 
для записи сочетаемости потребует массива размерности 5. Для обобщения модели 
считаем, что имеем дело с М-мерным массивом. 


Методика сборки М-мерного текстового корпуса 


Сначала текстовый корпус проходит этап синтаксического анализа предложений 
текстов, который производится с помощью Стеэндфордского парсера З4апЮга Рагзег [7]. 

Далее, разбирая синтаксическое дерево, постсинтаксический анализатор выделяет 
главный глагол предложения - на него указывает гоо{ (ВООТ-0, уегБ); субъект-под- 
лежащее — пзиб} (уетЪ, поип); прямой объект-дополнение -— 406} (уеть, поип); непрямой 
объект — 106] (уетф, поип); существительное в предложной группе — ргер_4инпо (уетЬ, 
поип), ргер оп (уетЬ, поип), ргер_ ш (уеть, поип) и т.д.; межглагольную связку хсошр 
(уегф,уегЬ1). Таким образом, при анализе предложения, находя лексемы в соответст- 
вующих синтаксических позициях, система заполняет этими словами кортеж пред- 
ложения (гоо{-ует, пзиБ], 4оБ], 106], ргер_, хсотр, соии®) ‚ при этом в ргер_ существи- 
тельное записывается вместе с предлогом. Если в предложении отсутствует некоторая 
синтаксическая позиция, то она заполняется символом пустого слова 0. В шестимерный 
массив данных помещаются только кортежи с как минимум тремя ненулевыми полями. 
В соип{ сохраняется число раз использования подобного лексического сочетания в 
данном корпусе. Шесть первых элементов кортежей формируют координаты прост- 
ранства, седьмой — значения частоты сочетаний. Как результат формируется 6-мерный 
массив сочетаний слов в данных синтаксических позициях предложений текстов корпуса. 
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Разложение тензора 


Полученный массив — тензор размерности 6 — должен быть разложен в виде 
шести матриц, каждая из которых будет представлять отображение множества лексем, 
стоящих в определенной синтаксической позиции, на множество К фактор-измерений 
латентного семантического пространства семантико-синтаксических отношений слов 
текстового корпуса. 

Для разложения тензора используется метод неотрицательной тензорной фак- 
торизации. Он подобен параллельному факторному анализу с ограничением, что все 
данные должны быть неотрицательными. Параллельный факторный анализ — это 
мультилинейный аналог сингулярного разложения матриц, используемого в латентном 
семантическом анализе. Главная идея метода — минимизация суммы квадратов разниц 
между оригинальным тензором и факторизированной моделью тензора. Для №-арного 
тензора Т е А”? ^^» определяется целевая функция (1), где А — размерность факто- 
ризированой модели, а° — внешнее произведение (олщег рго4ис®). 

К 
шт |Т-Ужоу, о... |. (1) 
1=1 


хе у ЕЮ? „2. Е КОХ 


Для неотрицательной факторизации добавляются ограничения по неотрица- 
тельности значений элементов (2): 


ши ИТ-Ужоу, о... 02, | (2) 


Результат работы алгоритма — представление тензора в виде № матриц, которые 
описывают отображение каждой из размерностей тензора на А фактор-измерений 
латентного семантического пространства. Обычно МТЕ модель подгоняется методом 
наименьших квадратов. На каждой итерации /-1 размерность фиксируется, а Л--я раз- 
мерность подгоняется методом наименьших квадратов. Процесс продолжается до 
момента сходимости. Число фактор-измерений латентного семантического прост- 
ранства было взято КА = 150. Исходя из опыта предыдущих исследований, именно это 
значение обеспечивает лучшие результаты факторизации [2]. Для решения данной 
задачи была написана программная реализация алгоритма параллельной факторизации 
РАКАРГАС [8] 6-мерного тензора, где значительного ускорения процесса решения 
задачи удалось достичь благодаря распараллеливанию вычислений на графической 
карте по технологии, аналогичной описанной в [9]. 

В результате факторизации собранного шестимерного тензора получены шесть 
матриц, состоящих из А-мерных векторов-столбиков и представляющих отображение 
множества слов в шести разных синтаксических позициях на К-мерное пространство 
сочетаний слов в предложениях корпуса. Для того чтобы вычислить частоту сочетаний 
слова Бес _е [в синтаксической последовательности МЗОВУ, УЕВВ, РОВ.У, ОВУ, 
РКЕР_, ХСОМР нужно вычислить сумму: 


[4 
>`М5ОВЛа]* УЕВВ[Ь] * РОВЛ]* ОВЛ] * РВЕР_[п_с]* ХСОМРИЯ . 
1 
Таким образом, получено средство удобног о представления шестимерного много- 
мерного массива и быстрого эффективного вычисления значений данного массива. 
Можно легко вычислить частоту сочетаний типа «Электрик прикрутил лампочку», 
«Повар зажарил утку», «Поезд выехал в Симферополь» в текстах корпуса. Для этого 
нужно найти вектора-столбики, соответствующие данным словам из матриц, соот- 
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ветствующих их синтаксическим позициям, и вычислить сумму из произведений их 
координат. Используя данный инструментарий, можно различать правильные после- 
довательности слов от неправильных, например, что «охотник подстрелил зайца» — 
это корректное высказывание, а «заяц подстрелил охотника» - нет. Данные матрицы 
разложенного многомерного тензора представляют собой латентное семантическое 
пространство семантико-синтаксических связей слов естественного языка. Семантико- 
синтаксическое поведение каждого слова, те связи, которые оно образовывает с другими 
словами, неявно описывается в его К-мерных векторах-столбцах в разных матрицах разло- 
женного тензора, соответствующих его возможным синтаксическим позициям. Назовем 
эти К-мерные вектора-столбцы семантико-синтаксическими валентностями слов. 

Заметим, что А-мерные векторы-столбцы из матриц разложенного тензора явля- 
ются описанием частотного распределения лексем в последовательностях слов пред- 
ложений. Основная сложность состоит в том, что при построении массива семантико- 
синтаксической сочетаемости лексем основными объектами изучения и анализа явля- 
ются лексемы — слова, которые по природе неоднозначны. И векторное представление 
семантико-синтаксических валентностей любого слова И’, коим является соответст- 
вующий ему вектор-столбец из матриц разложенного тензора, — это есть, по сути, 
сумма составляющих слагаемых векторов отдельных разных семантических значений 
этого слова И’ — концептов 571, 5\,..., 5и» в некоторой онтологии. Таким образом, 
стоит задача по вектору валентности (1, у2....у) некоторого слова И’ получить сос- 
тавляющие слагаемые векторы валентностей (%11,у/>,...,У 1), (У2ь 22 ...,У2%),..5 (Ми, - „У 
для каждого из его [ значений. Вектор валентностей фиксированного значения — кон- 
цепта некоторой онтологии -— является неявным описанием его семантических отно- 
шений с другими концептами данной онтологической базы знаний. В работе описан 
метод определения семантических отношений между концептами — синсетами \огапеф, 
посредством анализа разложенных тензоров, сформированных при обработке корпусов 
статей ЕпеПзВ \/Шаре(а, с расщеплением векторов семантической валентности слов 
на составляющие вектора семантической валентности их значений, и с конкретной 
привязкой расщепленных векторов к соответствующим концептуальным узлам онто- 
логии \МогаМет. 


Алгоритм расщепления векторов семантико- 
синтаксической валентности слов на составляющие 
слагаемые векторы валентностей их разных значений 


После факторизации шестимерного собранного тензора корпуса статей Епэ1$6 
М/Иаре а были получены шесть матриц КООТ УЕВВ, М№5ОВУ, РОВ, ЮВУ, РВЕР , 
ХСОМР, которые состоят из векторов размерности А. Каждый вектор-столбец этих 
матриц соответствует некоторому слову или словосочетанию. Данные вектора опи- 
сывают семантико-синтаксическое поведение слов, а именно, в каких синтаксических 
позициях какие связи и с кем некоторое слово образует. По аналогии с химической 
терминологией, назовем данные вектора векторами семантико-синтаксических 
валентностей (УЗУ) слов. Слова по своей природе являются неоднозначными, то 
есть им, как правило, соответствует несколько значений. Таким образом, вектор слова 
является суммой векторов всех значений данного слова. Одному слову может соот- 
ветствовать несколько векторов из разных матриц, соответствующих разным синтак- 
сическим позициям, задача расщепления каждого из этих векторов решается отдельно. 
Разработанный алгоритм расщепления УЗУ слова на множество УЗУ$ всех его зна- 
чений — синсетов \\ог4пе! — имеет следующий вид: 
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Дан вектор семантической валентности Г, размерности А, который соответствует 
некоторому слову и в МЗОВ] (или же в любой другой из 6 матриц — метод работает 
аналогично). Существительному у? соответствует { значений — синсетов в \МогаМе. 
Требуется разделить Г на составляющие слагаемые Г/,Г.,...Г, ‚ соответствующие дан- 
ным Г синсетам. 


Юг 1=1 ю К 40 
Бест 
КУ[<>0 Шеп 
Юг ]=1 ю140 
Бест 


{Необходимо определить, какому из { синсетов принадлежит 1-тое значение У[1]. Оно может 
принадлежать либо одному из синсетов, либо нескольким — тогда нужно разложить У[!| на 
сумму У[П+У>П]+...+ У} 


Для ]-того концепта найти ближайшего соседа в сети \Мог4пеф, содержащего в составе своего 
синсета такое слово Ууог, которому в МЗОВ] соответствует вектор с 1-тым элементом, большим, 
чем некоторый пороговый уровень ТВ. Если в синсете несколько таких слов, то выбираем 
слово с наиболышим значением 1-того элемента его вектора из МЗОВУ. При поиске ближайшего 
соседа учитываются только связи-отношения типа гипернимия — гипонимия. При нахождении 
ближайшего соседа, удовлетворяющего данным условиям, запоминаем 1-тый элемент вектора 
его слова, поделенный на расстояние от концепта ] до него: 


о М5ИВЛ мо!а ‚П . 
Ч$апсе( сопсер(]) ‚ с1озезё пееПБог) ' 


епа; 
У, У>[1|,...У [1 определяются из системы уравнений: 
1. У = х[1] *У; УИ = Хр 2 ХУ; ... У =ХШ*У; 
Е 
2. УХ Л*У=ИЙ; 
= 
ИИ. 
1 2 
Ух 
= 
Еог }=1 0 40 И Х[] *У< А Шеп УД] =0 е!зе УД = ХО] *У; 


Определить значение У= 


{ ® — пороговый уровень, подобранный экспериментально} 
епа; 


Эксперименты с векторами семантической валентности концептов-синсетов 
МогаМеф, полученными в результате работы описанного алгоритма, показали высокую 
точность расщепления векторов семантической валентности слов на составные сла- 
гаемые вектора семантической валентности их значений — концептов, с привязкой их 
к конкретным синсетам \огМе{. Оценка точности в среднем достигает 91 — 92 %. 
Для проведения экспериментов была разработана программа, генерирующая по набору 
полученных векторов семантических валентностей синсетов \МогаМе множество 


190 «Искусственный интеллект» 2013 №3 


Алгоритм автоматического определения семантических отношений... 


всех возможных последовательностей слов — предложений с их участием, которые 
согласуются со значениями в этих К-мерных векторах синсетов. Далее эксперты с 
помощью той же программы провели анализ корректности сформированных слово- 
сочетаний и вычисление оценки точности определения вектора семантической валент- 
ности для каждого синсета \Мог@Ме! из тестовой выборки. 


Выводы 


Данная работа рассматривает модель М№-мерного лингвистического пространства 
семантико-синтаксических отношений между словами естественного языка, которое 
формируется в результате частотного анализа синтаксических структур предложений 
больших текстовых корпусов. Данные представляются в виде М№-мерных массивов 
данных, которые потом обрабатываются методами неотрицательной факторизации 
№-мерных тензоров. Разложение собранных тензоров в виде М матриц сокращенной 
размерности А, помимо компактной и удобной структуры представления данных о 
сочетаемости последовательностей лексем в некоторых синтаксических позициях 
предложений естественного языка, дает эффективный метод вычисления оценки веро- 
ятности существования семантико-синтаксических связей между словами разных 
грамматических категорий. При этом можно рассматривать А-мерные векторы из 
матриц разложенного тензора как векторы семантико-синтаксических валентностей 
слов. Так как слова по своей природе являются неоднозначными и одному слову, как 
правило, соответствует несколько значений, в работе предложено рассматривать 
К-мерные векторы семантико-синтаксических валентностей слов как суммы составных 
слагаемых векторов разных значений этих слов. В статье представлен разработанный 
метод расщепления векторов семантико-синтаксических валентностей слов на сос- 
тавные слагаемые векторы их разных значений с привязкой этих расщепленных век- 
торов к синсетам \МогаМе в качестве их собственных значений векторов семантиче- 
ской валентности. Реализованный алгоритм был протестирован проведением ряда 
экспериментов с матрицами разложенного тензора корпуса текстов статей \/аредла. 
Полученные при тестировании оценки точности работы предложенного алгоритма 
демонстрируют его высокую эффективность и говорят о реальных перспективах его 
использования на практике в автоматизации методов наполнения контентом онтоло- 
гических баз знаний для автоматического определения семантических отношений 
между концептами — узлами онтологической сети — в процессе обработки больших 
текстовых корпусов. 
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А1эотийт ог ашотайс аееспоп о} 5етапис гёапоп5 


Беглееп сопсер5 ор опоов1е5 

ТЫ$ рарег Ч4езстЬез а тефо4 юг амютайс деегииште зетапйс ге]айотз Бебмееп 
сопсерЕ подез оРап опю|оз1са| Кпо\Ледее Базе Бу апа[у7ше фе таёлсез$ оЁ \’ога$ зетапйс- 
зущасйс уа|епсез. ТВезе тай1сез аге оМатед Бу поп-пегайуе асоптаНоп оЁР1епзогз оЁ 
у\ог4$ зущасйс сотЫпабПпу. ТВе 1епзогз Вауе Бееп оепегае ш Фе сопгзе оЁ зущасИс 
угистигез Неаиепсу апа[уз1$ Гог Ше Тагое {ехё согриз оР ЕпеИзВ \/Паре а агисез. 

ТВе ргес1$1оп аззеззтеп{ оЁ Ше ргорозе4 а]еотИйт, обатед Финие Фе реогтеа 
{е5Ипо, дЧетопзгаез (5 Шон еЁЯсепсу ап4 ргоу14ез е геа| ргозрес$ Гог 15 ргасйса! изе 
ш аютаноп оЁРтефод$ Юг НШпе Фе сощепЕ оЁ опюоз1са| Кпо\Ледее Базез ю амютайсаПу 
даегише Ше зетапйс г@айоп$ Бебмееп Фе опю1о21са| пебуотК по4ез ш Фе ргосеззте 
1агое {ехЕ согрога. 
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